SoSe2023

Folienübersicht

Modulübersicht

Einführung Statistik & Experimentelles Design

Kurstruktur

  • Vorlesung (45min)
  • Übungen (45min)
    • Übungsmaterial (Daten, Augaben im Quizformat, R Notebook Vorlagen, Lösungsskripte) → Moodle, RStudio Server
    • Übungen im Anschluss an die VL in Eigenarbeit ausfüllen (siehe Übungsquizze)
    • In darauffolgenden Übungsstunden werden die Lösungen besprochen und Fragen geklärt
    • Nutzung des RStudio Servers → Übungsspezifische Projektordner
      • Hier bitte im Unterordner ‘Studierende’ einen neuen Ordner mit Ihrem Namen erstellen!

Zeitplan zur Orientierung

VL Datum Thema
1 06.04.2023 Einführung in das exp. Design & die mathematische Statistik
2 13.04.2023 Wahrscheinlichkeitstheorie
3 20.04.2023 Wahrscheinlichkeitsverteilungen
4 27.04.2023 Schätzverfahren
5 04.05.2023 Hypothesentests
6 06.05.2023 Klassische Tests - Teil 1
7 11.05.2023 Klassische Tests - Teil 2
8 25.05.2023 Einfache Varianzanalyse (ANOVA)
9 01.06.2023 Korrelation, Transformation
10 15.06.2023 Regression
11 22.06.2023 Poweranalyse und Bestimmung des Stichprobenumfangs
11 29.07.2023 Grundlagen des exp. Designs - Teil 1
12 6.07.2023 Grundlagen des exp. Designs - Teil 2

Lernziele des Moduls

Am Ende des Semesters werden Sie

  • grundlegende Kenntnisse in den Bereichen der Statistik und Wahrscheinlichkeitstheorie haben,
  • einen Überblick über verschiedene Datenverteilungen haben und in der Lage sein, auf Normalverteilung hin zu testen,
  • die Konzepte der Datenerhebungen und den Zusammenhang zwischen experimentellem Design und statistischer Analyse besser verstehen,
  • Hypothesen formulieren und statistische Testergebnisse hinsichtlich der Hypothesen interpretieren können und
  • ein geschärftes Urteilsvermögen über geeignete und ungeeignete Methoden entwickelt haben.

Das Team

  • Dr. Monika Eberhard (Mi, Do Übungen, VL)
  • Andrea-Carolin Menzel (Mo Übung)
  • Dirk Granse (Mo Übung)
  • Julian Mittmann-Götsch (Mo Übung)
  • Eva Ostertag (Mo Übung)
  • Dr. Marie-Christin Hardenbicker (Di,Mi Übungen)
  • Alexej Sinner (Di Übungen)
  • Dr. Saskia Otto (Do Übung, VL)

Literatur

Deutsch

  • Bärlocher, F. (1999): Biostatistik - Praktische Einführung in Konzepte und Methoden. Thieme Verlag, 206 S.
  • Eickhoff-Schachtebeck, A., Schöbel, A. (2014): Mathematik in der Biologie, Springer Spektrum, 277 S.

Englisch

  • Bluman, A.G. (2023): [Elementary Statistics: A Step by Step Approach]. McGraw-Hill, 11. Edition
  • Quinn, G.P., Keough, M.J. (2002): Experimental Design and Data Analysis for Biologists, Cambridge, UK, 553 S.
  • R: Lazic, S.E. (2017): Experimental Design for Laboratory Biologists: Maximising Information and Improving Reproducibility. Cambridge University Press, 422 S.
  • R: Crawley, M.J. (2013). The R Book, Wiley, 945 S.

Prüfung

  • 90minütige Präsensprüfung (mit iPads in Moodle)
    1. Termin am 13.7.2023, 9 Uhr (Hörsaal Zoologie)
    1. Termin am 21.9.2023, 9 Uhr (Hörsaal Zoologie)
  • SC-, MC- und numerische Fragen
  • evtl. auch praktische Fragen mit dem RStudio Server

Übungsabschluss

Thema: Blütenallometrie

  • begleitend im Semester
  • 2 Teile:
    • Teil 1: Datenerhebung (bis 31.5.2023)
    • Teil 2: Datenanalyse (bis 2.7.2023)

Kommunikationswege

  • Kommunikation läuft über Moodle
  • Spezifische Nachrichten direkt an die Übungsgruppenleiter senden (in Moodle)
  • Allgemeine Fragen können im FAQ Forum gestellt und von Ihnen auch beantwortet werden

Sonstiges

  • Bitte um Fehlerhinweise und Verbesserungsvorschläge
  • Kritischer Umgang mit dem Themengebiet
  • Kritik, Fragen, Anmerkungen
  • Weitere Fragen?

Los gehts …

Was hat die Statistik mit dem experimentellen Design zu tun?

Hauptphasen der Durchführung wissenschaftlicher Studien

Durchführung wissenschaftlicher Studien

Phase 1

Durchführung wissenschaftlicher Studien

Phase 2

Durchführung wissenschaftlicher Studien

Phase 3

Durchführung wissenschaftlicher Studien

Phase 6

Durchführung wissenschaftlicher Studien

Ständiger Wechsel zwischen den verschiedenen Phasen

Im Idealfall gilt,…

  • die Studie bzw. das Experiment ist leicht durchführbar.
  • bei festem Zeit-, Ressourcen- und Stichprobenaufwand wird ein Maximum an Informationen gewonnen.
  • die Ergebnisse sind auf eine Vielzahl von Personen, Bedingungen und Situationen anwendbar.
  • die Daten sind einfach zu analysieren und zu interpretieren.
  • die Schätzungen sind präzise.
  • die Schätzungen sind vor möglichen einmaligen Ereignissen geschützt, die die Ergebnisse beeinträchtigen könnten.
  • Effekte können eindeutig und ohne Verzerrung geschätzt werden.

→ Dies kann nur durch eine sorgfältige Planung vorweg erreicht werden, nicht NACHDEM die Daten erhoben wurden.

Messende (natürliche) vs. manipulative Experimente

1

Messende (natürliche, korrelative) Experimente

  • Verwendung von bereits bestehenden oder natürlich vorkommenden Behandlungsgruppen.
  • Test von Hypothesen über Muster, bestehende Trends oder Beziehungen in der Natur.
  • Wenig Kontrolle.
  • Dazu gehören auch: Monitorings, Surveys

Messende (natürliche) vs. manipulative Experimente

2

Unter Laborbedingungen


Eines von NOAAs fischereiwissenschaftlichen Laboren zur Untersuchung der Effekte der Ozeanversauerung auf marine Organismen.
Bildquelle: NOAA

Draussen, in Mesokosmen


MEDIMEER (MEDIterranean platform for Marine Ecosystem Experimental Research) Experiment im Frühjahr 2018 in Sète, Frankreich.
Bildquelle: Aquacosm

Messende (natürliche) vs. manipulative Experimente

3

Manipulative Experimente

  • Kontrollierte Manipulation schließt einige alternative Erklärungen (Ursachen) aus.
  • Mehrere mögliche Ursachen und ihre Wechselwirkungen können untersucht werden → Manipulation von zwei oder mehr Faktoren
  • Probleme mit manipulativen Experimenten:
    • In der Regel kleine räumliche und zeitliche Skalen (Relevanz?).
    • Kontrollen für Artefakte nicht immer möglich.
  • Kann im Labor oder im Feld durchgeführt werden.

‘Learning’ vs. ‘Confirming’ Experiments

1

Lernende (explorative) Experimente

  • Hat das Medikament toxische Nebenwirkungen (in welcher Dosis, über welchen Zeitraum, in welchem Gewebe)?
  • Das Ziel ist etwas neues zu lernen.
  • Hypothese ist allgemeiner und ein statistischer Test ist weniger wichtig
  • Typisches Beispiel in der Biologie: ‘High-throughput screening’ in den Omics Wissenschaften.

‘Learning’ vs. ‘Confirming’ Experiments

2

Lernende (explorative) Experimente

  • Hat das Medikament toxische Nebenwirkungen (in welcher Dosis, über welchen Zeitraum, in welchem Gewebe)?
  • Das Ziel ist etwas neues zu lernen.
  • Hypothese ist allgemeiner und ein statistischer Test ist weniger wichtig.
  • Typisches Beispiel in der Biologie: ‘High-throughput screening’ in den Omics Wissenschaften.

Bestätigende Experimente

  • Erhöht sich die Kreatinkonzentration im Blut, wenn 5 mg/kg des Arzneimittels einmal täglich über 5 Tage verabreicht werden?
  • Basieren oft auf lernenden Experimenten.
  • Spzeifische Hypothesen werden getestet, bei denen häufig die Effektstärke wichtig ist.

Mathematische Statistik

Einführung

Warum brauchen wir Statistik?

  • Erleichtert die Interpretation von Daten. ACHTUNG: Statistik stellt keine Fakten dar, sie beschreibt Fakten!!
  • Ökologische Systeme sind stochastisch, nicht deterministisch.
    • ‘Blaues Lackmuspapier verfärbt sich in Säure IMMER rot’ → statistische Analyse hier unnötig.
    • ‘Aspirin hilft nicht immer gegen Kopfschmerzen’ → Statistik hier nötig um die Wahrscheinlichkeit, dass ein Ereignis zufällig erfolgt, einschätzen zu können.
  • In jedem Vergleich wird es Unterschiede geben. Die Herausforderung liegt in der Unterscheidung zwischen realen Effekten und zufälliger Variabilität

Einführung

Statistik als Teil der Stochastik

Die Statistik ist ein Teilgebiet der reinen Mathematik und betrachtet das Sammeln, die Analyse, die Präsentation und Interpretation von Daten. Sie stellt somit die theoretische Grundlage aller empirischen Forschung dar.

Einführung

Teilgebiet 1

Deskriptive Statistik

  • = beschreibende, empirische Statistik
  • Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst.
  • Hauptaufgabe der Statistikämter, Alltagsgebrauch
  • 2 Methoden:
    • Grafisch (Histogramm, Säulendiagramm) → Aussage über die Verteilung der Werte
    • Numerisch (Mittelwert, Varianz) → Aussage über Zentriertheit und Streuung

Einführung

Teilgebiet 2

Mathematische Statistik

  • = induktive, schließende Statistik, Inferenzstatistik
  • Eigenschaften einer Grundgesamtheit werden aus Daten einer Stichprobe abgeleitet.
  • Grundlage der Schätz-und Testverfahren ist die Wahrscheinlichkeitstheorie → Inferenzen sind nie sicher und werden als Wahrscheinlichkeiten ausgedrückt
  • Schätzverfahren (estimation): Berechnung von Stichprobenstatistik und Wertebereich indem Populationsparameter mit bestimmter Wahrscheinlichkeit vermutet wird (Konfidenzintervall)
  • Testverfahren (hypothesis-testing): setzt eine zu testende Hypothese voraus
  • schließt im weiteren auch Prognosen (forecasts/predictions) ein

Einführung

Teilgebiet 3

Explorative Statistik

  • = Hypothesen-generierende, analytische Statistik, explorative Datenanalyse (EDA)
  • Große Anwendung im Data Mining.
  • Von John W. Tukey in den 1970ern eingeführt.
  • Methodisch eine Zwischenform der Teilbereiche 1 und 2.
  • Verwendung von Daten um Hypothesen zu entwickeln, die dann mithilfe der mathematischen Statistik getestet werden können.

Unterschiedliche Fragestellung

  • Deskriptive Statistik: Wie kann man eine Verteilung eines Merkmals beschreiben?
  • Explorative Statistik: Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?

>250 Jahre Statistik

Bevölkerungsstatistik (~19 Jhd.)

  • Volkszählungen älteste bekannte Anwendungen der Statistik (erste Volkszählung 1801).
  • Bürokratisches Sammeln großer Datenmengen über Bevölkerung → viktorianische Statistiker System entwickelt zur Erfassung von Daten zur Volksgesundheit → führte zu politischen Reformen und Entstehung ‘Public Health Act’;
  • Bevölkerungsstatistiker Auffassung, dass statistische Variation Fehlerquelle sei, die man abschaffen müsste; Fokus hier auf Durchschnittswerte (Idee der perfekten Mitte, Lehre des Determinismus).
  • Darwins Theorie der biologischen Variation schuf Rahmen für Konzeption neuer statistischer Methoden; Fokus verlagert sich auf die Varianz.

>250 Jahre Statistik

Mathematische Statistik

  • Späte 19 Jhd., Anfang 20. Jhd.
  • Mathematische Statistik entstand aus der mathematischen Wahrscheinlichkeitstheorie durch Werke von Bernoulli, Laplace, Gauß und DeMoivre.
  • Teilaspekte von Kontinentaleuropa ausgehend, aber meiste von Briten entwickelt. Z.B.
  • Francis Galton (Vetter von Charles Darwin): Begründer der Biometrie, entwickelte Grundlagen der Regression und Korrelation
  • Karl Pearson: arbeitete \(\chi^2\)-Verteilung aus, entwickelte parametrischen Korrelationskoeffizienten
  • Ronald A Fisher: entwickelte Grundlagen der Varianzanalyse, Planung von Experimenten, Zufallsanordnungen

Anstoß zur Wahrscheinlichkeitsrechnung

2 Historische Aufgaben aus der Kombinatorik

Die Aufgabe von Galileo Galilei

Um 1615 sollen italienische Spieler (in einigen Quellen heißt es auch der Fürst von Toskana) Galilei folgende Frage gestellt haben, welche eine viel diskutierte, Jahrhunderte alte Aufgabe darstellte:

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Die damaligen Theoretiker behaupteten, dass beide Summen gleich wahrscheinlich seien. Aus ihrer Erfahrung wussten allerdings die Glücksspieler, dass die 10 häufiger als die 9 autritt.

Das De-Méré-Paradoxon

Als eigentliche Geburtsstunde der mathematischen Wahrscheinlichkeitsrechnung gilt das Jahr 1654. Chevalier de Meré, ein Philosoph und Literat am Hofe Ludwigs des XIV, wandte sich mit folgendem Problemen an den bekannten Mathematiker Blaise Pascal:

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen?

Auch dieses Probleme war damals schon viele Jahrhunderte alt. Allerdings waren die früheren Lösungen falsch.

Statistik in Zeiten der Computer-Ära

Ein Methodenüberblick

Klassische Inferenzstatistik

  • Frequentistische Inferenz
  • Bayes’sche Inferenz
  • Fisher’sche Inferenz und die Maximum-Likelihood-Schätzung
  • Parametrische Modelle (Regression, ANOVA, ANCOVA)

Frühe Methoden des Computerzeitalters

  • Empirische Bayes Methode
  • James-Stein-Schätzung und Ridge-Regression
  • Generalisierte Lineare und Additive Modelle (GLM, GAM)
  • Entscheidungsbäume CART (Classification und Regression Trees)
  • Überlebensanalyse (survival analysis) und Erwartungs-Maximierungs-Algorithmus
  • Jackknife und Bootstrap Methoden
  • Markov Chain Monte Carlo
  • ARIMA Modelle

Methoden des 21. Jahrhunderts

  • Großskalige Hypothesentests und Falscherkennungsraten
  • Sparse Modeling und Lasso Regression
  • Random Forests und Boosting
  • Neuronale Netzwerke und Deep Learning
  • Support-Vector Machines und Kernel Methoden
  • Empirische Bayes Schätzstrategien

Interview mit Travor Hastie und Bradley Effron

2 Aspekte der statistischen Analyse

Algorithmen vs. Inferenz

  • Bei Algorithmen geht es darum, was der oder die StatistikerIn tut, während es bei der Inferenz darum geht, warum er oder sie es tut und wie gut der Algorithmus ist.
  • Beispiel: Arithmetische Mittelwertsbildung ist der Algorithmus, der Standardfehler des Mittelwerts liefert einen Rückschluss auf die Genauigkeit des Algorithmus (= Inferenz).
  • Der Algorithmus kommt immer zuerst und die Inferenz folgt auf einer zweiten Ebene der statistischen Betrachtung.
  • Durch die computergestützte Zunahme an riesigen Datensammlungen hat es eine Revolution der computergestützten, statistischen Methoden (Algorithmen) gegeben, während sich die Inferenz, also die Theorie nach der zwischen konkurrierenden Methoden gewählt wird, etwas langsamer entwickelte.

Wichtiges zum Schluss

Grundsätzlich gilt in der Statistik

  • Statistische Analysen können NICHT falsch gesammelte, unvollständige oder unzuverlässige Daten kompensieren!
  • Statistische Auswertungen sollten nicht einfach kochbuchmäßig ausgeführt werden (zunehmende Gefahr mit aktuellen Computerprogrammen und zugänglichen Programmierskripten)
  • Hintergründe und Voraussetzungen der Methoden sollten bekannt sein → dabei sind die mathematischen Formeln weniger wichtig als der zugrundeliegende philosophische Ansatz.

Übungsaufgabe

Aufgabe 1: Die Aufgabe von Galileo Galilei

Wie groß sind die Wahrscheinlichkeiten, mit 3 Würfeln eine Summe von 9 oder 10 zu erhalten?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Summen haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Summe 9 oder 10 häufiger vorkommt.
    • Nimm 3 unterschiedlich aussehende Würfel und werfe sie zusammen. Notiere Dir die Summe der drei Augenzahlen.
    • Wiederhole den Wurf, sprich die ‘Messung’, mindestens 20-mal.
    • Berechne aus den mind. 20 Würfen (Messungen) die relativen Häufigkeiten der Summe 9 und 10. Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Aufgabe 2: Die Aufgaben des Chevalier de Meré

Was ist wahrscheinlicher, in vier Würfen eines einzelnen Würfels mindestens eine ‘6’ zu würfeln (Variante A) ODER in 24 Würfen eines Würfelpaars mindestens eine ‘Doppelsechs’ zu erzielen (Variante B)?

Herangehensweise

  • Theoretisch: Überlege Dir zuerst welche theoretischen Wahrscheinlichkeiten beide Varianten haben könnten.
  • Empirisch: Nun ermittle empirisch, ob die Variante A oder B häufiger vorkommt.
    • Führe Variante A und B getrennt durch und notiere Dir die Gesamtaugenzahl bei jedem Wurf (= Messung).
    • Wiederhole jede Messung mindestens 20-mal.
    • Berechne aus den mind. 20 Messungen die relativen Häufigkeiten der ‘6’ (Variante A) und der ‘Doppelsechs’ (Variante B). Passen diese Werte zu Deiner theoretischen Vorhersage?
Bildquelle: Wikipedia (CCO 1.0)

Übungsbereiche in Moodle nach Wochen gegliedert

  • Die Quizze sind VOR den Übungen einzureichen.
  • Direkt nach dem Einreichen sind die Lösungen einsehbar.
  • Zur Bearbeitung können die R Notebooks verwendet werden.
  • NACH den Übungen werden dann zusätzlich Lösungsskripte freigeschaltet.

Übungsaufgaben im Quizformat

R Notebooks für die Bearbeitung

Fragen?

Abschlussquiz

Fragen?